期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于概率球面判别分析的说话人识别信道补偿算法
景维鹏, 肖庆欣, 罗辉
《计算机应用》唯一官方网站    2024, 44 (2): 556-562.   DOI: 10.11772/j.issn.1001-9081.2023020157
摘要165)   HTML2)    PDF (1543KB)(59)    收藏

在说话人识别任务中,概率线性判别分析(PLDA)模型是目前常用的分类后端,但由于高斯PLDA模型分布假设不能准确拟合真实说话人特征分布,导致基于高斯分布假设长度归一化的信道补偿方法会破坏说话人特征类内分布的独立性,使得高斯PLDA不能充分利用上游任务提取特征所包含的说话人信息,从而影响识别结果。针对这一问题,提出基于概率球面判别分析的信道补偿算法(CC-PSDA),通过引入冯·米塞斯-费希尔(VMF)分布假设的概率球面判别分析模型(PSDA)和特征变换方法代替高斯分布假设的概率线性判别分析方法,以避免信道补偿对说话人特征类内分布独立性的影响。首先,为了使说话人特征符合VMF分布先验假设拟合后端分类模型,在特征级利用非线性转换对说话人特征进行分布变换。之后,利用基于VMF分布假设的PLDA模型不会破坏说话人特征的类内分布结构的特点,将变换后的说话人特征定义到特定维度的超球面,最大化特征类间距离。所提算法通过期望最大化(EM)算法进行求解,最终完成分类任务。实验结果表明,改进算法在三个测试集上的识别等错误率相较于对比模型PSDA、高斯PLDA均最低。由此可见,所提模型可以有效区分说话人特征,提高识别性能。

图表 | 参考文献 | 相关文章 | 多维度评价
2. 云存储系统中文件分界点确定方法——Cut-GAR
邵田, 陈广胜, 景维鹏
计算机应用    2015, 35 (9): 2497-2502.   DOI: 10.11772/j.issn.1001-9081.2015.09.2497
摘要511)      PDF (864KB)(276)    收藏
针对Hadoop分布式文件系统(HDFS)中小文件定义模糊导致HDFS处理小文件性能不佳的问题,提出了一种云存储系统中文件分界点的确定方法——Cut-GAR。该方法分析消耗NameNode内存(M)、文件上传速度(MUFS)、文件读取速度(MAFS)与文件大小之间的关系,得出文件大小三个近似最优值,FM、FMUFS、FMAFS;然后利用灰度关联分析,将M、MUFS、MAFS作为评价指标,文件大小作为评价对象,得到评价指标-评价对象灰色关联度以及评价指标所占权重,将FM、FMUFS、FMAFS与对应权重相乘,得出文件分界点。实验结果表明,Cut-GAR在M、MUFS 和MAFS三者之间取得平衡,可以有效确定文件分界点,提升小文件处理性能。
参考文献 | 相关文章 | 多维度评价
3. 基于Hadoop的海量嘈杂数据决策树算法的实现
刘亚秋, 李海涛, 景维鹏
计算机应用    2015, 35 (4): 1143-1147.   DOI: 10.11772/j.issn.1001-9081.2015.04.1143
摘要585)      PDF (750KB)(587)    收藏

针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IP-C4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。

参考文献 | 相关文章 | 多维度评价